Les léiomyosarcomes (LMS) sont des cancers mésenchimateux rare des tissus mous qui peuvent se développer dans divers sites anatomiques mais le plus souvent dans l’utérus, le rétropéritoine et les membres. Les LMS sont le sous-type le plus agressif des sarcomes des tissus mous avec jusqu’à 50% des patients développent des métastases durant la première année après le diagnostique. Malheureusement, aucune thérapie ciblée ou immunothérapie n’a montré d’effets thérapeutiques majeurs jusqu’à aujourd’hui. Le patients sont donc traités par résection chirurgicale pour les LMS localisés ou par chimiothérapie classique. Les LMS ont une génétique complexe et seulement un faible nombre de voies de signalisation ont été clairement identifiées étant impliquées dans leur oncogenèse mais n’expliquent pas la diversité des phénotypes. Une possibilité d’amélioration de l’efficacité des traitements serait de pouvoir startifier, regrouper les patients suivant des marqueurs spécifiques d’une succeptibilité particulière.
Durant ce TD, nous allons rechercher les variations génétiques du patient LMS25. Durant le TD précédent nous avons préparé les données issues de séquençage du génome entier (Whole Genome Sequencing: WGS) du tissu sain et tumoral et de son transcriptome afin de pouvoir y détecter des variations succeptibles de provoquer l’apparition du léiomyosarcome chez ce patient.
Nous allons utiliser the Integrative Genome Viewer (IGV) qui est un outil en ligne qui permet de visualiser les reads alignés sur le génome humain version hg38 (.bam) et d’observer les variations relatives au génome de référence.
Nous allons apprendre pas à pas à charger des données, naviguer sur le génome et identifier des variants somatiques ayant un intérêt potentiel pour notre étude.
Dans data/ vous trouverez:
IGV est un outil intéractif performant et facile à utiliser pour l’exploration visuelle des données génomiques. Il permet l’intégration flexible de tous les types de données courants et de métadonnées génomiques, générées par les chercheurs ou accessibles au public, chargées à partir de sources locales ou du cloud. Cet outil a été développé par le Broad Institute et est disponible dans une version en ligne qui ne nécessite aucune installation en local.
Dans un navigateur web, ouvrez https://igv.org/app.
Note : Assurez-vous que les popups ne sont pas désactivés dans votre navigateur web, car certaines fonctionnalités reposent sur eux.
L’IGV affiche les données cartographiées aux coordonnées génomiques d’un génome de référence. Lorsque la page IGV-Web se charge pour la première fois, elle chargera le génome de référence par défaut hg19.
Nous avons aligné les données de séquençage sur une version plus récente du génome humain. Pour charger ce génome, cliquez sur le menu déroulant Genome et sélectionnez dans la liste des génomes prédéfinis. De quelle version s’agit-il ? La réponse est inscrite plusieurs fois dans le début de ce document.
Note : Vous devez d’abord charger le génome de référence, avant de charger les pistes de données (ou data tracks). Le changement de génome effacera toutes les pistes chargées.
Charger le génome de référence.
Le premier track indique la région visualisée sur le génome. Par défaut, tous les chromosomes sont affichés.
Un track est affiché par défaut, il se nomme Refseq Genes, avez vous une idée de ce que représente ce track ?
Réponse
La collection Reference Sequence (RefSeq) fournit un ensemble complet, intégré, non redondant et bien annoté de séquences, y compris l'ADN génomique, les transcrits et les protéines. Les séquences RefSeq constituent une base pour les études médicales, fonctionnelles et de diversité. Elles constituent une référence stable pour l'annotation du génome, l'identification et la caractérisation des gènes, l'analyse des mutations et des polymorphismes (en particulier les enregistrements RefSeqGene), les études d'expression et les analyses comparatives.
Ici, nous allons pouvoir observer les modèles de transcrits.
Pour charger des données et des annotations génomiques, cliquez sur le menu déroulant Tracks et choisissez soit dans la sélection des tracks prédéfinies, soit dans l’une des options de chargement des fichiers que vous spécifiez.
Nous allons tout d’abord visualiser les reads alignés provenant de la tumeur.
Pour charger des données à partir d’un fichier, utilisez l’option de la partie supérieure du menu : Local File. Un sélecteur de fichiers s’affiche et vous pouvez sélectionner des fichiers pour plusieurs pistes, ainsi que les fichiers d’index correspondants.
Note : Pour les fichiers indexés, par exemple les fichiers BAM, vous devez sélectionner explicitement le fichier d’index en même temps que le fichier de données.
Le fichier d’alignements relatif à la tumeur se nomment LMS25T.bam et son index LMS25T.bam.bai
Pour le moment, rien n’est visible dans ce nouveau track nous pouvons lire le message “Zoom in to see features”. Allons-y !
Réponse.
Le panel du haut représente la couverture de cette région par les reads, la hauteur de chaque barre de l'histogramme indique le nombre de reads présent à chaque position. L'échelle permet donc de quantifier cette couverture.
Le panel du bas représente les reads eux mêmes. Vous pouvez, grâce au curseur se trouvant à droite du track, visualiser l'ensemble des reads aux positions qui vous intéressent.
View as pairs. Vous pouvez tester différents settings, par exemple avec l’attributs color by.Exemple de setting.
Reads en paires colorés selon le sens de lecture.
Grâce à ces options nous pouvons voir que les reads proviennent aléatoirement des 2 brins ce qui est un signe d'une expérience réussie.
Certaines positions sont colorées par une ou deux couleurs. A quoi, selon vous, correspondent les couleurs? Pour vous aider, zoomez sur l’une de ces positions pour visualiser environ 200 paires de base (bp).
Un track qui était jusqu’alors vide contient maintenant un jeu de 4 couleurs. D’après vous, à quoi correspond-il ?
Continuer à zoomer jusqu’à visualiser environ 100 bp. En cliquant sur le menu “engrenage” de ces tracks, 2 options apparaissent, Reverse et Three-frame translation. Que font ces 2 options ?
Avec tous les élements recueillis, décrivez chacun des tracks en indiquant ce qu’ils représentent, la signification des couleurs etc., vous pouvez aussi cliquer sur les éléments des tracks, des informations supplémentaires apparaissent.
Description des tracks.
Génome de référence: zoom ~200 pb.
Lorsque l'on effectue un zoom suffisant, la track de la séquence du génome de référence apparaît juste en dessous de la règle chromosomique. la séquence est représentée par des barres colorées.
Génome de référence: zoom ~100 bp.
La séquence est représentée par des lettres colorées : l'adénine (A) en vert, la cytosine (C) en bleu, la guanine (G) en orange, et la thymine (T) en rouge.
Cadres de lecture.
Sens de lecture. Dans un premier temps, le brin sens / positif est affiché. Cliquez sur "Reverse" pour passer au brin antisens / négatif. Cliquez sur "Forward" pour revenir en arrière.
Traduction de la séquence. Cliquez sur "Three-frame translation" pour afficher une piste à trois bandes qui montre une traduction dans les 3 cadres de lecture de la séquence d'acides aminés pour la séquence de nucléotides correspondante. La traduction est affichée pour le brin actuel. Les acides aminés sont affichés sous forme de blocs colorés dans des tons de gris alternés. Les méthionines sont colorées en vert, et tous les codons stop sont colorés en rouge. Lorsque vous zoomez à fond, les symboles des acides aminés apparaissent. Cliquez sur Fermer la traduction pour réduire la piste afin d'afficher uniquement la séquence.
Exemple de position: zoom ~100 pb.
Dans cette image, le zoom a été centré sur la position 7674797 du chromosome 17 et comprend 78 bp. Les deux premiers tracks montrent le brin sens et antisens du génome de référence ainsi que leurs traductions en acides aminés (suivant les 3 cadres de lecture possible). Ici, celà n'a pas vraiment de sens puisque la région observée correspond à un intron du gène TP53 et est donc éliminée avant la traduction.
En cliquant sur la barre colorée en bleu, nous obtenons plusieurs informations: la position est couverte par 29 reads, tous ces reads possèdent un C (N représente n'importequelle base, la présence de N signifie que le séquenceur n'a pas su lire la base). En cliquant sur un read, nous obtenons toute les informations concernant la façon dont il a été aligné (la séquence CIGAR, 112M indique qu'il a été aligné sans mismatch sur toute sa longueur, il mesure 112 nucléotides), la qualité d'alignement (255) qui est forte, qu'il est unique et que la séquence read est de bonne qualité (failed QC: No). Nous avons ensuite des informations relative à sa situation dans la paire de reads. Ici, l'autre read dans la paire a aussi été aligné et sa position de début est spécifiée.
Réponse
Exemple de position: zoom ~100 pb.
La position encadrée en rouge met en évidence une barre bleue dans la couverture et la base C dans les reads alors que nous attendions un T à cette position. Il s'agit donc d'un variant génétique relativement au génome de référence.
Le but ici est d’identifier un variant génétique dans le gène TP53 pouvant présenter un intérêt dans l’étude de ce léiomyosarcome.
En l’état actuel, les variations sont difficilement identifiable du à la couleur des reads et de la couverture, en particulier la couleur associée à la base A. Changeons la couleur du track et des reads en utilisant les options du track.
Changer la couleur des tracks.
Quelles caractéristiques devraient présenter une telle variation ?
Réponse.
Une variation a plus de risque de perturber la fonction ou la conformation de la protéine si elle se trouve dans un exon (elle peut modifier la séquence en acides aminés ou introduire un codon stop) ou à une jonction intron/exon altérant ainsi le processus d'épissage. Les variations dans les introns peuvent aussi avoir des impacts car ils contiennent des éléments régulateurs de la transcription mais nous ne nous intéressons pas à ce cas ici.
Réponse.
Dans ce patient, 2 positions juxtaposées se situent dans un exon et pourraient avoir un impact. Il s'agit des positions 7674221 et 7674222.
17 reads couvrent ces positions. Nous attendions un G à ces positions et les reads présentent 53% de A et 47 % de G. Il s'agit donc de variations hétérozygotes puisque 2 allèles différents sont présents dans les reads. Cela implique qu'une version non muté de ce gène coexiste avec la version mutée, un des allèles est encore sauvage et suivant l'allèle exprimé, la mutation pourrait n'avoir que peu d'effet.
Importer les données adéquates
Les fichiers permettant de répondre à cette question contiennent les reads alignés provenant du tissu normal. Il s'agit de LMS25C.bam et son index LMS25C.bam.bai
S’agit-il d’un polymorphisme ou d’une mutation somatique ? Vous souvenez vous de ce que signifie “somatique” et pourquoi ces variations existent ?
Définition
Une mutation somatique est une mutation acquise par le patient durant sa vie. Ces mutations viennent d'un défaut de réplication ou de l'action d'un mutagène extérieur tel que le tabac ou le soleil. Ces mutation n'impacte pas la viabilité de la cellules, n'ont pas été normalement réparées avant la mitose. Cette mutation est seulement présente dans cette cellule et ses filles.
Note: Personnaliser les options des tracks pour une meilleure visibilité. Par exemple, enlever les reads alignés. Pour le nouveau track n’oubliez pas de changer la couleur du tracks pour mettre en évidence les positions variables.
Réponse
La variation n'est pas présente dans l'échantillon normal, c'est donc une mutation somatique acquise durant la vie du patient qui n'était pas présente dans la lignée germinale.
Réponse
Les variations sont présentes dans les données provenant du RNA-seq (LMS25R.bam), les mutations sont donc exprimées. Les 2 allèles sont transcrits et coexistent.
Attention: Notez bien le sens de lecture du gène pour vous référer à la séquence du génome qui a effectivement codé pour le transcrit.
Rappel: Le brin codant n’est pas le brin qui est lu et complémenté durant la transcription. L’ARN transcrit est identique au brin codant (mis à part l’uracile U à la place de la thymine T) et complémentaire du brin transcrit. La transcription s’effectue toujours de 5 prime vers 3 prime.
Source: https://b.21-bal.com/law/3735/index.html
Par convention, les séquences représentent toujours le brin codant, c’est pour cela que nous pouvons directement associer les acides aminés aux codons.
Cursor Guide, qui devient alors foncé, une ligne verticale est associé au curseur et peut vous aider à identifier le bon cadre de lecture.Ci dessous, une table de conversion codon / acide aminé (et leur symbole).
Table de conversion codons / AA
Source: http://morissardjerome.free.fr/infobiogen/www.infobiogen.fr/doc/documentscd9e.html?cours=data
Réponse
Afin d'obtenir le bon résultat il fallait:
1/ Afficher le brin antisens en sélectionnant "Reverse" puisque TP53 est codé à partir de celui ci (les flèches dans le modèle de gène vont de la droite vers la gauche).
2/ Identifier où l'exon commence exactement, ceci défini le premier nucléotide du premier codon traduit dans cet exon. Dans le cas ci dessus il s'agit de la 3ème ligne. Le premier acide aminé codé par cet exon est Y (une Tyrosine).
Les nucléotides mutés touchent 2 codons différents codant pour une Arginine (R) à la position 7674221 et une Asparagine (N) à la position 7674222.
Atention: Les bases affichées dans les tracks d’alignement correspondent au brin sens.
Réponse.
Pour la position 7674221: Le C a été modifié en T (toutes 2 des pyrimidines) le codon CGG devient donc TGG. Un Tryptophane sera donc produit à la place de l'Arginine. C'est une mutation que l'on appelle non-synonyme et qui va avoir un impact fort sur la protéine.
Pour la position 7674222: Le C a été modifié en T, le codon AAC devient AAT qui code tous les 2 pour Une Asparagine. C'est une mutation que l'on appelle synonyme et qui va n'avoir aucun impact sur la séquence protéique.
Exercice (les réponse ne sont pas disponibles ici.)
Pour répondre à ces questions, nous allons charger un dernier track à partir du fichier merged_LMS25TCR_haplotycaller.vcf. Ce fichier regroupe les résultats de la détection de variants effectuées avec GATK HaplotypeCaller (https://gatk.broadinstitute.org/hc/en-us/articles/360037422451-HaplotypeCaller ) effectuée sur les 3 échantillons.
N’hésitez pas à cliquer sur les éléments de ce track, des fenêtres apparaissent vous donnant des indications ainsi que des liens vers des bases de données ou site contenant des informations.
Pour cet exercice, il vous faut être curieux, rechercher sur le net les termes et accronymes que vous ne connaissez pas. Par exemple, une des fenêtres qui s’affiche lorsque vous cliquez dessus indique que le variant à un GQ égal à 99, quelle information cela nous donne t-il? Toutes les informations cependantes ne sont pas de grand intérêt. Faites un sommaire des informations pertinentes que vous aurez recueillies.